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Построение обучающей выборки 
\"-объектов на основе коллективного 
решения группы экспертов 


Работа посвящена решению задачи построения решающих правил в адаптивных системах распознавания 
при наличии классификации каждого объекта группой независимых экспертов. Для оценки степени 
согласованности экспертов в классификации объектов предлагается использовать показатель уверенности 
классификации. Для учета степени согласованности экспертов осуществляется переход к взвешенным 
выборкам \-объектов. Предлагается единый подход к формированию взвешенной выборки \/-объектов по 
исходной выборке и добавляемым в процессе работы системы объектам. Анализ результатов тестовых 
исследований показал существенное снижение ошибок классификации при использовании выборки 
у-объектов для построения решающих правил классификации. 


Введение 


При построении обучающихся систем распознавания в большинстве случаев един- 
ственной априорной информацией, по которой выполняется построение решающих 
правил классификации, является обучающая выборка, содержащая данные о значениях 
признаков распознаваемых объектов и соответствующих этим объектам классах. Клас- 
сификация объектов обучающей выборки в общем случае осуществляется экспертом 
и считается верной, поскольку проверить её правильность не представляется возмож- 
ным [1]. При этом неверная классификация даже незначительного количества обучаю- 
щих объектов может существенно изменить решающие правила классификации и при- 
вести к значительному ухудшению качества распознавания [2]. 

Для решения этой проблемы наиболее часто используется два подхода. В первом 
происходит отказ от имеющейся классификации объектов, выполняется кластеризация 
объектов обучающей выборки и по её результатам каждому объекту ставится в соот- 
ветствие номер класса, полученный автоматически [2], [3]. Такой подход является 
единственно возможным, когда нет возможности получить дополнительную информа- 
цию о классификации объектов обучающей выборки. При этом очевидно, что отказ 
от имеющейся априорной информации может приводить к ухудшению качества распо- 
знавания [4]. Согласно второму подходу, используются данные о классификации объек- 
тов коллективом независимых экспертов, и классификация объектов определяется по- 
средством обработки результатов частных классификаций этих экспертов [5], [6]. Если 
такие данные априорно не могут быть получены, то в качестве экспертов может вы- 
ступать множество решающих правил, построенных по исходной выборке [2], [7]. 

Анализ многих прикладных задач, например, задач медицинской диагностики, 
для которых была известна классификация объектов группой экспертов, показал, что 
объекты, наиболее удаленные от межклассовой границы, относятся экспертами к од- 
ному из классов системы практически единогласно. Объекты, находящиеся в простран- 
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стве признаков вблизи межклассовой границы, достаточно часто получают неодно- 
значную классификацию экспертами. Использование в обучающих выборках только 
номера класса, которому отдало предпочтение большинство экспертов, и отсутствие 
учета степени согласованности классификации объектов экспертами, на наш взгляд, 
также может привести к ухудшению качества решающих правил классификации. По- 
этому в работе [8] для оценки степени разногласия экспертов в классификации объектов 
обучающей выборки было предложено вычислять коэффициент уверенности класси- 
фикации, являющийся, в то же время, критерием определения классификации объектов 
обучающей выборки. 

Учет взаимного расположения объектов обучающей выборки является одним из 
наиболее эффективных способов повышения качества распознавания в обучающихся 
системах [9]. В наибольшей степени это проявляется для объектов, значения призна- 
ков которых изменяются динамически [10]. Изменение распознаваемых объектов с те- 
чением времени требует постоянного обновления обучающей выборки и, как следствие, 
корректировки решающих правил классификации. Системы, обеспечивающие такие 
возможности, получили название открытых адаптивных систем распознавания. 

В работе [11] для учета расположения объектов в пространстве признаков была 
предложена идея перехода от традиционных обучающих выборок к взвешенным вы- 
боркам. Было показано, что использование взвешенных выборок помимо решения за- 
дачи сокращения обучающих выборок, являющейся одной из центральных задач по- 
строения открытых адаптивных систем распознавания, позволяет повышать эффективность 
систем за счет учета расположения объектов в многомерном пространстве признаков. 

Данная работа является продолжением исследований в области построения от- 
крытых адаптивных систем распознавания и посвящена разработке единого подхода 
к построению взвешенных обучающих выборок на основе коэффициента увереннос- 
ти классификации. 


Постановка задачи 


Пусть имеется некоторая конечная обучающая выборка объектов Х’, = {Х\, Х,, ..., 


Х}} . Каждый объект Х, описывается системой признаков, т.е. Х, = {хн, Х;2,... Хи}, И 


представляется точкой в линейном пространстве признаков, т.е. Х’, е А”. Для каждого 
объекта известна его классификация 5 экспертами у; = {ул, Ур» -- Ув}, УРЕГ, Г =, 
Г,,..., Гк} — множество классов системы. Каждый эксперт характеризуется рейтин- 
гом К р = 1,5. 

Необходимо сформировать классифицированную взвешенную обучающую вы- 


борку \-объектов Х И ИХ — а й 


вес 1-го \-объекта, у” -— классификация 1-го \-объекта с учетом совокупного мнения 


И т И 
‚2 Х) | С И пы 


о классификации объектов обучающей выборки всех экспертов. 


Построение взвешенной обучающей выборки 
у\-объектов по исходной выборке 


Определение классификации объектов обучающей выборки при условии нали- 
чия множеств экспертных оценок для них предлагается выполнять путем расчета по- 
казателя уверенности классификации [8]. Его основу составляет рейтинг экспертов К, 
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оценивающий степень доверия классификации объектов, выполненной этим экспертом. 
Отметим, что если рейтинг экспертов неизвестен, то он может быть принят за едини- 


цу, т.е. К, И = 1,5. 
Определение. Показателем уверенности классификации ((Х, /у, = 7) назовем 


отношение суммарного рейтинга экспертов, относящих объект обучающей выборки 
Х, кклассу /, к общему рейтингу всех экспертов, т.е. 
5 
ра (К, "Р; ) 


ОХ, Гу, = 
В, 
= 


1, если Х’, отнесен { - м экспертом к классу ] 


где р, = 
0, иначе 


Определение классификации каждого из объектов обучающей выборки осущест- 
вляется путем выбора номера класса, соответствующего максимальному показателю 
уверенности классификации: 

у; =агв шах (Х,/у,=Л. 
ЛЬ 


По результатам определения классификации объекта Х’, исходной обучающей вы- 
борки формируется \-объект Х’”’ следующим образом: 
1) признаки \'-объекта Х” являются признаками объекта Х’, исходной выборки; 
И р 
2) объект Х; относится к классу, для которого ((Х, / у, = /) максимален; 


И 
3) вес р; \-объекта Х,; принимается равным максимальному значению показа- 


теля уверенности классификации (т.е. значению показателя уверенности классифика- 
ции класса, к которому отнесен рассматриваемый объект). 

В результате расчета показателя уверенности классификации по всем классам 
системы для всех объектов и определения максимальных из них, формируется взвешен- 


ная классифицированная обучающая выборка \-объектов Х В {Хх й и . а 


Отметим, что в отличие от стандартного подхода в определении классификации объек- 
тов при наличии коллективной классификации группой экспертов, когда определяет- 
ся только принадлежность объекта к одному из классов системы [12], предлагаемый 
подход позволяет оценить степень уверенности экспертов в правильности классифика- 
ции и дает дополнительные исходные данные для дальнейшего построения решающих 
правил классификации. 


й’ 
а 


Пополнение взвешенной обучающей выборки 
\-объектов 


Одним из основных отличий открытых адаптивных систем распознавания явля- 
ется возможность добавления новых обучающих объектов на всем протяжении времени 
работы системы [10], что в свою очередь требует корректировки обучающей выборки 
и адаптации решающих правил классификации. 

Возможны следующие ситуации при добавлении новых объектов: 
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1) если новый объект обучающей выборки классифицирован группой экспертов, 
то его обработка аналогична обработке объектов исходной выборки (рассчитывается 
показатель уверенности классификации и выполняется построение нового \-объекта); 

2) если новый объект обучающей выборки классифицирован только одним экс- 
пертом, то значения признаков нового \/-объекта приравниваются значениям призна- 
ков добавляемого объекта, вес нового \/-объекта устанавливается равным единице и 
объект относится к классу, определенному единственным экспертом. 


Определение рейтинга экспертов, представленных 
решающими правилами классификации 


Как отмечалось ранее, получение классификации объектов обучающей выборки 
группой экспертов не всегда возможно. В этом случае в качестве экспертов использует- 
ся множество решающих правил, построенных по исходной выборке [7]. Для расчета 
показателя уверенности классификации в таком случае необходимо определить рейтинг 
каждого из используемых решающих правил классификации. На наш взгляд, является 
естественным использовать в качестве рейтинга величину, характеризующую качест- 
во распознавания решающим правилом объектов тестовой выборки, т.е. 

М(Е(Х')) 


В = [5(^’)  1=1,4, 


где №М(Е(Х")) — количество неверных классификаций объектов тестовой выборки Х" 
решающим правилом Ё(Х"); 


|5(Х") 


4 - количество используемых решающих правил классификации. 


— размер тестовой выборки Х"; 


Полученный таким образом рейтинг экспертов (решающих правил) используется 
при расчете показателя уверенности классификации аналогично заданным рейтингам 
экспертов. 


Классификация объектов по взвешенной 
обучающей выборке \-объектов 


Основным отличием используемых алгоритмов построения решающих правил 
от множества известных алгоритмов является необходимость учета веса \/-объектов. 
Так, для классификации распознаваемых объектов с использованием взвешенной об- 
учающей выборки может быть использован модифицированный метод К -ближайших 
соседей. Классификация объектов определяется по К ближайшим \/-объектам к клас- 


сифицируемому объекту Х’. по следующей метрике: 
ру у Ул; у р 


ЕЕ Р;`Р; Р;`Р; 


' | т 
з НХ’ 2 
А 
0=1 


где р; =1 - вес распознаваемого объекта, который принимается равным единице. 


(п) 


Два объекта являются ближайшими, если значение, рассчитанное по формуле (1), 
максимально. 


Объект Х", относится к тому классу, объектов которого среди А ближайших больше. 
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Результаты экспериментальных исследований 


Для оценки эффективности применения предложенного в данной работе подхо- 
да был выполнен ряд экспериментальных исследований, в которых для обучающих 
выборок, классификация объектов которых выполнялась группой экспертов, сформи- 
рованы выборки \-объектов и оценена эффективность построенных по ним решаю- 
щих правил. Экспериментальные исследования проводились на исходных выборках 
размером 500 — 2000 объектов, значения признаков которых распределены по нормаль- 
ному и равномерному законам распределения. Количество одинаковых классификаций 
объектов экспертами устанавливалось пропорционально удаленности объекта от меж- 
классовой границы (наиболее удаленный объект был классифицирован всеми экспер- 
тами одинаково, лежащий на границе — с минимальным перевесом в сторону одного 
из классов). 

Для оценки эффективности классификации использовались тестовые выборки 
размером 200 объектов, созданные по тем же генераторам, что и исходные обучающие 
выборки. В качестве критерия оценки эффективности использовалась частота невер- 
ных классификаций объектов тестовой выборки: 

МЕ 9 
| 5( Хх) 2 Л 2 5. 


Результаты оценки являются средними по результатам 50 экспериментов. 

Для оценки эффективности использования показателя уверенности классифика- 
ции и взвешенных выборок, построенных на его основе, использовались следующие 
значения: 

1) частота ошибочных классификаций №М(Е,(Х")) объектов тестовой выборки по 


2(') = 


обучающей выборке, классификация объектов которой определялась большинством 
голосов экспертов [12]; 
2) частота ошибочных классификаций №(ЁЕ, (Х")) объектов тестовой выборки по 


обучающей выборке, классификация объектов которой определялась на основе пока- 
зателя уверенности классификации; 
3) частота ошибочных классификаций №(Ё,(Х")) объектов тестовой выборки по 


взвешенной обучающей выборке \/-объектов. 

Результаты экспериментальных исследований при изменяющемся размере обучаю- 
щих выборок и степени пересечения классов в пространстве признаков приведены в 
табл. 1 и 2 соответственно. 

Анализ полученных результатов показывает, то использование показателя уве- 
ренности классификации для определения классификации объектов обучающих вы- 
борок позволяет в среднем уменьшить частоту неверных классификаций на 1,5%, а 
использование взвешенной выборки \-объектов - на 4,5%. 

Отметим, что предложенный подход наиболее эффективен для обучающих выборок 
большого объема и классов, существенно пересекающихся в пространстве признаков, 
что является характерным особенностями адаптивных открытых систем распознавания. 


Таблица 1 — Частота неверной классификации объектов тестовых выборок при 
изменяющемся размере обучающих выборок по 10% степени пересечения классов в 
пространстве признаков 


Размер выборки М(Е(Х')) МЕ, (Х')) МЕ; (Х')) 
500 0,04 0,032 0,019 
1000 0,033 0,029 0,017 
1500 0,03 0,022 0,012 
2000 0,028 0,019 0,006 
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Таблица 2 — Частота неверной классификации объектов тестовых выборок при 
различной степени пересечения классов в пространстве признаков при размере обучаю- 
щих выборок 1000 объектов 


Степень пересечения р р р 
о МЕХ) МЕХ”) МЕХ") 
0 0,008 0,006 0,001 
10 0,033 0,029 0,017 
20 0,074 0,057 0,031 
30 0,119 0,105 0,076 
40 0,208 0,185 0,139 
Выводы 


В работе предложен общий подход к построению взвешенных обучающих выбо- 
рок \-объектов в открытых адаптивных системах распознавания по исходным обучаю- 
щим выборкам и объектам, добавляемым в процессе работы систем при наличии дан- 
ных о классификации объектов группой независимых экспертов. Для учета степени 
согласованности классификации экспертами предложено использовать показатель уве- 
ренности классификации, который во взвешенных обучающих выборках используется 
в качестве веса \/-объектов. Проанализированы возможные виды добавляемых обучаю- 
щих объектов и предложены способы построения по ним \-объектов. Описаны особен- 
ности классификации распознаваемых объектов на основе метода К-ближайших соседей 
по взвешенной обучающей выборке \-объектов. Результаты экспериментальных ис- 
следований по оценке эффективности использования взвешенных обучающих выбо- 
рок \/-объектов показали, что использование в качестве веса \/-объектов показателя 
эффективности классификации позволяет в среднем на 4,5% уменьшить количество 
неверных классификаций. При этом наибольшее снижение частоты неверных класси- 
фикаций наблюдается при существенном пересечении классов и обучающих выборках 
большого размера. 
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О.В. Волченко 

Побудова навчально! виб!рки У-0б’скт\в на основ! колективного ришення групи експерт!в 
Роботу присвячено досллдженню задач! побудови вирипуючих правил в адаптивних системах розшзнавання 
за наявност! класифлкаци кожного об’екту групою незалежних експертв. Для ошнки ми узгодженост1 
експерт!в в класифлкаци об’ект1в пропонуеться використовувати показник упевненост! класифкаци. 
Для врахування мри узгодженост! експерт!в зайснюеться перехд до зважених виб1рок \-06б’ектив. 
Пропонуеться единий шдх до формування зважено! вибтрки \-0об’ект1в по вихздний виб1рщ! 1 об’ектам, 
що додаються в процес! роботи системи. Анал1з результатв тестових дослуджень показав 1стотне 
зниження помилок класифкаци при використанн1 вибтрки \/-0б’ект!в для побудови вирииуючих правил 
класифлкаци. 


Е.Т. ГосйепКо 

Сопзгисйоп оЁ Фе \-ОБесё5 Тгашшо Затре оп Вас 01 Зеё о! Ехрег65? Зошйоп 

А ут 15 деуое4 ю зо[уше Ше ргоет оЁ сопзгасйп$ 4ес151оп пез ш адарнуе гесозтопз 5у$еп1$ Ш 
{фе ргезепсе о# с1азз1ИсаНоп оЁ еасВ оБ]ес{ Бу Фе этоир оЁ ш4ерепдепЕ ехреп$. То езИтае сопз1$епсу оЁ 
ехрем$ ш Фе об]ес{$ с1азз1ИсаНоп 1 1$ ргорозе4 ю зе Фе шдех оё <Л1аз;1ЯсаНоп?$ сопйдепсе. Тгапз1опз 
тю Фе уе ША затр]ез оЁ м-оБ]ес{5 аге таде 0 1аКе шю ассоипё сопз1%епсу оЁехрег5 ш Ше с1азИсаноп оЁ 
оБ]есё. ТЬе итЙе4 арргоасЬ ю 1е оппайоп оЁ фе \уе1еЩе4 затр]е оЁ \м-оБ]ес{5 Нот Фе опетпа| затр/е 
ап4 а44те оЁ Фе об]ес{$ аге ргорозе4. З1етиЙсапЕ гедисНоп$ ш с1аз$1ИсаНоп еггог$ \Пеп изте Фе затр/е 
оЁ\/-об]есё$ ш Фе сопзгасНоп оЁ ес1$1оп гез оЁ с1азсайоп аге зВо\уп. 
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